查看原文
其他

全世界都在拼算力,鹅的电话打爆了

腾讯云 2023-03-23
最近,AI大模型需求暴增

鹅的电话也快被打爆了


业界标杆大模型的参数量
从1亿暴涨到数万亿
AIGC的算力门槛越来越高
每一次训练背后

都是对家庭条件的巨大考验

模型越大需要训练的数据越多
训练的时间也越长

很容易达到现有计算资源的极限

“算力自由”

不是单纯购买一大堆GPU

连在一起就能实现


支撑大规模AI训练的核心

在于构建、操作和维护数以万计

高吞吐量、低延迟的智算网络


针对大模型场景

腾讯云有业界领先的计算基础设施

借助遨驰分布式云原生治理能力

调度总规模超1.5亿核

提供16 EFLOPS的异构算力——

相当于每秒1600亿亿次浮点运算


除了基础设施的规模、稳定

还需要大量系统级优化,提升利用率
鹅厂有两项业界领先的自研技术
容器级GPU共享技术qGPU

一张卡运行多个推理任务,互不干扰

跨平台AI训练推理加速引擎TACO Kit
摆脱框架和版本限制,匹配最优路线
让算法少走“弯路”
无代码侵入,训练推理性能最高提升6倍

要实现系统级优化

不仅要有效利用GPU

还需要网络的最佳性能

如果传输有瓶颈,即使把卡堆满

计算节点也会闲下来,拖慢训练速度

GPU这款“跑车”,只有在专业赛道上
才能发挥出最大优势
星脉高性能网络
就是我们为大模型构建的一条
大带宽、高利用率、无损的高速公路
1.6T RDMA网络、支持4K-64K GPU大规模集群组网
多轨道流量聚合架构+主动拥塞控制+定制加速通信库
将大模型通信性能提升10倍🏎️

云上智算是场团战

自研芯片、服务器
网络、存储、虚拟化

每位“关键先生”都在场
高性能计算集群HCC
才能输出极致算力


腾讯云,有业界最丰富的服务类型

为不同阶段的AIGC任务
匹配弹性调用、灵活部署的算力

助力万亿参数AI大模型

训练时间缩短80%

加速AIGC走向应用
鹅来搭把手!
用AI“抢救”1.2亿老人的听力全真互联“透明”砖厂

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存